FEVER NLI

mentions 1 type Person feed RSS

// recent coverage 1 mentions

04:00

2026-06-24

arxiv.org

large-language-models

Do LLM Attribution Metrics Transfer? Auditing Retrieval-Augmented Generation Evaluation Across Datasets and Constructs

A new study auditing eight automatic attribution metrics across multiple datasets finds that no single metric consistently performs best, with rankings inverting across datasets (Kendall tau = -0.64).…

// co-occurs with top 6 entities

AttributionBench 1 HAGRID 1 AttributedQA 1 LFQA 1 MiniCheck 1 BERTScore 1